草庐IT

k-means 聚类

全部标签

数学建模之聚类模型详解

聚类模型引言“物以类聚,人以群分”,所谓的聚类,就是将样本划分为由类似的对象组成的多个类的过程。聚类后,我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测;也可以探究不同类之间的相关性和主要差异。聚类和分类的区别:分类是已知类别的,聚类未知。K均值聚类算法算法流程一、指定需要划分的簇[cù]的个数K值(类的个数);二、随机地选择K个数据对象作为初始的聚类中心(不一定要是我们的样本点);三、计算其余的各个数据对象到这K个初始聚类中心的距离,把数据对象划归到距离它最近的那个中心所处在的簇类中;四、调整新类并且重新计算出新类的中心;五、循环步骤三和四,看中心是否收敛(不变),如果收敛或

java - 内部错误 : Bad sparse switch magic - what that means?

今天我得到一个堆栈跟踪,其中有一个非常奇怪的错误。实际上,我可能是第一个得到这个的人(耶!),因为在发布这个问题之前,谷歌中唯一出现的“Badsparseswitchmagic”是在Android源代码中。这是堆栈跟踪的一部分(Android2.3.4):java.lang.InternalError:badsparseswitchmagicatorg.my.app.MyItemAdapter.(MyItemAdapter.java:64)atorg.my.app.MyActivity.onCreate(MyActivity.java:78)从MyItemAdapter构造函数退出时抛

android - Realm Android : what is mean by isValid(), isLoaded(), isManaged()?

在Realm中,有isValid()、isLoaded()、isManaged()三个方法。我想知道什么时候应该使用哪种方法? 最佳答案 有效publicfinalbooleanisValid()检查RealmObject是否仍然可以使用,即RealmObject没有被删除,Realm也没有被关闭。对于非托管对象,它将始终返回true。有两件事会使RealmObject无效:-关闭它所属的Realm实例并删除任何线程上的对象(如果您正在进行自动更新活套线)已加载publicfinalbooleanisLoaded()检查用于查找此R

回声消除(AEC)原理、算法及实战——LMS(Least Mean Square)

回声消除是语音通信前端处理中的一种重要技术,产生的原因是:在实时音视频通话中,扬声器播放的声音有再次录进了麦克风去。在即时通讯应用中,需要进行双方,或是多方的实时语音交流,在要求较高的场合,通常都是采用外置音箱放音,这样必然会产生回音,即一方说话后,通过对方的音箱放音,然后又被对方的Mic采集到回传给自己(如下图所示)。如果不对回音进行处理,将会影响通话质量和用户体验,更严重的还会形成震荡,产生啸叫。声学回声是指扬声器播出的声音在接受者听到的同时,也通过多种路径被麦克风拾取到。多路径反射的结果产生了不同延时的回声,包括直接回声和间接回声。直接回声是指由扬声器播出的声音未经任何反射直接进入麦克风

大数据---聚类分析概述及聚类评估

聚类概述:什么是聚类?是把数据对象集合按照相似性划分成多个子集的过程。每个子集是一个簇(cluster),分类的最终效果:使得簇中的对象彼此相似,但与其他簇中的对象相异。聚类是无监督学习,因为给的数据没有类标号信息。分类和聚类的区别分类有监督学习;通过带标签的样本进行学习,生成分类模型(分类器)。聚类无监督学习;通过观察学习,根据样本间的相似性将数据分割成多个簇。基本聚类方法划分方法层次方法基于密度的方法划分方法划分方法:将有n个对象的数据集D划分成k个簇,并且k≤n,满足如下的要求:每个簇至少包含一个对象每个对象属于且仅属于一个簇基本思想:首先创建一个初始k划分(k为要构造的划分数,即簇的个

社交网络分析3:社交网络隐私攻击、保护的基本概念和方法 + 去匿名化技术 + 推理攻击技术 + k-匿名 + 基于聚类的隐私保护算法

社交网络分析3:社交网络隐私攻击、保护的基本概念和方法+去匿名化技术+推理攻击技术+k-匿名+基于聚类的隐私保护算法写在最前面社交网络隐私泄露用户数据暴露的途径复杂行为的隐私风险技术发展带来的隐私挑战经济利益与数据售卖防范措施社交网络用户数据隐私社交网络隐私攻击基于背景知识的攻击节点及节点间关系识别攻击隶属关系攻击概率攻击隐私保护研究现状社交网络用户隐私攻击研究现状社交网络去匿名化技术基于种子的去匿名化基于非种子的去匿名化社交网络去匿名化技术的发展社交网络推理攻击技术推理攻击案例推理攻击技术的发展社交网络用户隐私保护研究现状社交网络匿名化技术k度匿名化k邻域匿名化k同构匿名化时变图的k匿名化基

抖音用户浏览行为分析(作者聚类)

项目背景数据为抖音用户浏览数据,此份数据指标以“作品发布时间”为准,是以作者/作品的角度研究分析出发的一份数据合计1737357条数据,共计40天(不一定连续);数据涉及59232名用户,分布在387个城市里面;共计208187名作者,发布449472部作品,配音40761首,视频时长72种,4个频道,作者分布在411个城市;播放完成率40%,点赞率只有1%分析思路数据字段描述读取数据,数据预处理data=pd.read_csv('./douyin_dataset.txt',encoding='gb18030')data=data[['uid','user_city','item_id','a

【聚类】K-modes和K-prototypes——适合离散数据的聚类方法

应用场景:假设一批数据,每一个样本中,有唯一标识(id)、品类(cate_id)、受众(users,小孩、老人、中年等)等属性,希望从其中找出一些样本,使得这些样本覆盖的品类、受众等最广。分析:思路是使用聚类的方式,每个簇选一个样本。观察数据,都为类别特征,常用的kmeans聚类方法,会使用欧式距离,计算两个样本之间的距离,来判断该样本是否数据该簇。对于类别特征来说,就算表示为0,1,2,这些数字没有大小的意义,只代表某一个属性。所以我们不可以使用判断距离的方式,划分簇。经过调研,认识到了两个新的聚类方法:K-modes和K-prototypes。下面分别介绍下两个方法。K-modes适用于离

论文阅读1--A Survey on Incomplete Multi-view Clustering(不完全多视图聚类的调查)阅读笔记

目录写在前面(知识补充)0.Abstract1.Introduction2.FUNDAMENTALSANDPRELIMINARYCONCEPTS3.MATRIXFACTORIZATIONBASEDIMC(基于矩阵分解的IMC)4.KERNELLEARNINGBASEDIMC(基于内核学习的IMC)5.GRAPHLEARNINGBASEDIMC(基于图学习的IMC)6.DEEPLEARNINGBASEDIMC(基于深度学习的IMC)7.EXPERIMENTS(实验部分)8.CONCLUSION9.启发10.问题写在前面(知识补充)多视图学习:多视图学习也称作多视角学习(Multi-viewlea

密度峰值聚类(DPC)算法的介绍

DPC算法密度峰值聚类算法(DensityPeakClusteringAlgorithm)是一种无监督的聚类算法,它能够自动发现数据中的密度峰值点,并根据这些峰值点将数据进行聚类。该算法由AlexRodriguez和AlessandroLaio于2014年提出,其原理相对简单但非常有效。密度峰值聚类算法基于两个重要的概念局部密度():局部密度指的是一个数据点周围一定半径范围内的数据点数量,可以用来描述该点的密集程度。对于每个数据点,需要计算它的局部密度。相对距离():相对距离指的是一个数据点与比它密度(ρ)更大的点之间的相对距离。一般采用欧式距离。具体实现有了这两个概念后,我们需要计算出所有数